鉴于攻击测试集和大型模型参数上现有的中国语法误差校正模型的稳健性不佳,本文使用知识蒸馏的方法来压缩模型参数并提高模型的反攻击能力。在数据方面,攻击测试集是通过将干扰集成到标准评估数据集中来构建的,并且通过攻击测试集评估模型鲁棒性。实验结果表明,蒸馏小型模型可以确保在减少模型参数数量的条件下确保性能并提高训练速度,并对攻击测试集获得最佳效果,并且鲁棒性得到显着提高。
translated by 谷歌翻译
深度操作网络〜(DeepOnet)是我们培训到近似非线性运算符的基本不同类的神经网络,包括参数局部微分方程(PDE)的解决方案操作者。即使在具有相对较小的数据集的培训时,Deeponet也显示出显着的近似和泛化功能。然而,当训练数据被噪声污染训练数据时,DeepOnets的性能恶化,这是一种经常在实践中发生的场景。为了使DeepOnets培训用嘈杂的数据,我们建议使用贝叶斯·朗格文化扩散的贝叶斯框架。这样的框架使用两个粒子,一个颗粒用于探索,另一个用于利用深度的损失功能景观。我们表明,拟议的框架勘探和开发能力使得(1)改善了嘈杂场景中的深度的培训融合和(2)附加对参数PDE的预测解决方案的不确定性估计。此外,我们表明,与用最先进的基于梯度的优化算法(例如ADAM)培训的香草LeepOnets相比,复制 - 交换廊道扩散(显着)也提高了嘈杂情景中的夜间的平均预测准确性。为了减少复制品的潜在高计算成本,在这项工作中,我们提出了一个加速培训框架,用于复制 - 交换Langevin扩散框架,利用DeepOnet的神经网络架构,以降低其计算成本高达25%,而不会影响所提出的框架的性能。最后,我们说明了在四个参数PDE问题上使用一系列实验来说明所提出的贝叶斯框架的有效性。
translated by 谷歌翻译
Performance of spoken language understanding (SLU) can be degraded with automatic speech recognition (ASR) errors. We propose a novel approach to improve SLU robustness by randomly corrupting clean training text with an ASR error simulator, followed by self-correcting the errors and minimizing the target classification loss in a joint manner. In the proposed error simulator, we leverage confusion networks generated from an ASR decoder without human transcriptions to generate a variety of error patterns for model training. We evaluate our approach on the DSTC10 challenge targeted for knowledge-grounded task-oriented conversational dialogues with ASR errors. Experimental results show the effectiveness of our proposed approach, boosting the knowledge-seeking turn detection (KTD) F1 significantly from 0.9433 to 0.9904. Knowledge cluster classification is boosted from 0.7924 to 0.9333 in Recall@1. After knowledge document re-ranking, our approach shows significant improvement in all knowledge selection metrics, from 0.7358 to 0.7806 in Recall@1, from 0.8301 to 0.9333 in Recall@5, and from 0.7798 to 0.8460 in MRR@5 on the test set. In the recent DSTC10 evaluation, our approach demonstrates significant improvement in knowledge selection, boosting Recall@1 from 0.495 to 0.7144 compared to the official baseline. Our source code is released in GitHub https://github.com/yctam/dstc10_track2_task2.git.
translated by 谷歌翻译
Causal language modeling (LM) uses word history to predict the next word. BERT, on the other hand, makes use of bi-directional word information in a sentence to predict words at masked positions. While BERT is effective in sequence encoding, it is non-causal by nature and is not designed for sequence generation. In this paper, we propose a novel language model, SUffix REtrieval-Augmented LM (SUREALM), that simulates a bi-directional contextual effect in an autoregressive manner. SUREALM employs an embedding retriever to search for training sentences in a data store that share similar word history during sequence generation. In particular, the suffix portions of the retrieved sentences mimick the "future" context. We evaluated our proposed model on the DSTC9 spoken dialogue corpus and showed promising word perplexity reduction on the validation and test set compared to competitive baselines.
translated by 谷歌翻译
由于在临床实践中获得多模式成对图像的困难,最近的研究提议用未配对的图像训练脑肿瘤分割模型,并通过模态翻译捕获互补信息。但是,这些模型无法完全利用不同方式的互补信息。因此,在这项工作中,我们提出了一个新颖的两步(内模态和模式间)课程分解学习框架,以有效利用特权的半成绩图像,即仅在训练中可用于脑肿瘤分段的有限的配对图像。具体而言,在第一步中,我们建议通过增强模式内风格的图像进行重建和分割。在第二步中,该模型共同执行重建,无监督/监督的翻译以及对未配对和配对模式图像的分割。提出了内容一致性损失和监督翻译损失,以利用此步骤中不同方式的互补信息。通过这两个步骤,我们的方法有效地提取了特定于模式的样式代码,描述了组织特征和图像对比度的衰减,以及来自输入图像的解剖和功能信息的模态不变的内容代码。对三个脑肿瘤分割任务的实验表明,我们的模型比基于未配对图像的分割模型优于竞争分割模型。
translated by 谷歌翻译
人们以不同的感官感知世界,例如视觉,听觉,气味和触摸。从多种方式处理和融合信息使人工智能可以更轻松地了解我们周围的世界。但是,当缺少模式时,在不同情况下,可用方式的数量会不同,这导致了N至一对融合问题。为了解决这个问题,我们提出了一个称为Tfusion的基于变压器的融合块。与预设公式或基于卷积的方法不同,所提出的块自动学习以融合可用的模式,而无需合成或零填充丢失。具体而言,从上游处理模型中提取的特征表示形式被投影为令牌并馈入变压器层以生成潜在的多模式相关性。然后,为了减少对特定模式的依赖性,引入了一种模态注意机制来构建共享表示,该表示可以由下游决策模型应用。提出的TFUSH块可以轻松地集成到现有的多模式分析网络中。在这项工作中,我们将tfusion应用于不同的骨干网络,以进行多模式的人类活动识别和脑肿瘤分割任务。广泛的实验结果表明,与竞争融合策略相比,Tfusion块的性能更好。
translated by 谷歌翻译
物体负担是人类对象互动中的一个重要概念,它基于人类运动能力和物体的物理特性提供有关行动可能性的信息,从而使任务受益,例如行动预期和机器人模仿学习。但是,现有数据集通常:1)将负担能力与对象功能混合在一起;2)将负担与目标相关的动作混淆;3)忽略人类运动能力。本文提出了一个有效的注释方案,通过将目标 - 毫无疑问的运动动作和将类型抓住为负担性标签,并引入机械作用的概念来解决这些问题,以表示两个对象之间的动作可能性。我们通过将该方案应用于Epic-Kitchens数据集并通过“负担能力识别”等任务来测试我们的注释,从而提供新的注释。我们定性地验证了接受注释训练的模型可以区分负担能力和机械行动。
translated by 谷歌翻译
由于缺乏深度信息,单眼3D对象检测在自主驾驶中非常具有挑战性。本文提出了一种基于多尺度深度分层的单眼单目眼3D对象检测算法,它使用锚定方法检测每像素预测中的3D对象。在所提出的MDS-Net中,开发了一种新的基于深度的分层结构,以通过在对象的深度和图像尺寸之间建立数学模型来改善网络的深度预测能力。然后开发出新的角度损耗功能,以进一步提高角度预测的精度并提高训练的收敛速度。最终在后处理阶段最终应用优化的软,以调整候选盒的置信度。基蒂基准测试的实验表明,MDS-Net在3D检测中优于现有的单目3D检测方法,并在满足实时要求时进行3D检测和BEV检测任务。
translated by 谷歌翻译
基于深度神经网络的医学图像系统容易受到对抗的例子。在文献中提出了许多防御机制,然而,现有的防御者假设被动攻击者对防御系统知之甚少,并没有根据防御改变攻击战略。最近的作品表明,一个强大的自适应攻击,攻击者被认为具有完全了解防御系统的知识,可以轻松绕过现有的防御。在本文中,我们提出了一种名为Medical Aegis的新型对抗性示例防御系统。据我们所知,医疗AEGIS是文献中的第一次防范,成功地解决了对医学图像的强烈适应性的对抗性示例攻击。医疗AEGIS拥有两层保护剂:第一层垫通过去除其高频分量而削弱了攻击的对抗性操纵能力,但对原始图像的分类性能构成了最小的影响;第二层盾牌学习一组每级DNN模型来预测受保护模型的登录。偏离屏蔽的预测表明对抗性示例。盾牌受到在我们的压力测试中的观察中的观察,即在DNN模型的浅层中存在坚固的小径,自适应攻击难以破坏。实验结果表明,建议的防御精确地检测了自适应攻击,模型推理的开销具有可忽略的开销。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译